O Instituto Brasileiro de Geografia e Estatística (IBGE) é um instituto público da administração federal brasileira criado em 1934 e instalado em 1936 com o nome de Instituto Nacional de Estatística; seu fundador e grande incentivador foi o estatístico Mário Augusto Teixeira de Freitas.
O IBGE tem atribuições ligadas às geociências e estatísticas sociais, demográficas e econômicas, o que inclui realizar censos e organizar as informações obtidas nesses censos, para suprir órgãos das esferas governamentais federal, estadual e municipal, e para outras instituições e o público em geral.
Através dos dados disponibilizados por esse instituto, foi sugerida a tentativa de explicar como a raça e o setor afetam na alfabetização dos cidadãos. Os dados são divididos em setores censitários, que são, uma unidade territorial de coleta das operações censitárias, definido pelo IBGE, com limites físicos identificados, em áreas contínuas e respeitando a divisão político-administrativa do Brasil.
dados <- read_csv(here::here("data/dados_limpos.csv"), col_types = "dcccdddddddddddddddd")
glimpse(dados)
## Observations: 5,548
## Variables: 20
## $ cod_setor <dbl> 2.500106e+14, 2.500106e+14, 2.50010…
## $ UF <chr> "Paraiba", "Paraiba", "Paraiba", "P…
## $ municipio <chr> "ÁGUA BRANCA", "ÁGUA BRANCA", "ÁGUA…
## $ urbano <chr> "Urbano", "Urbano", "Urbano", "Rura…
## $ num_residentes <dbl> 1528, 500, 889, 860, 667, 604, 371,…
## $ num_brancos <dbl> 667, 235, 450, 303, 225, 226, 117, …
## $ num_pretos <dbl> 10, 6, 19, 6, 7, 6, 7, 18, 31, 2, 1…
## $ num_amarelos <dbl> 1, 5, 2, 10, 12, 6, 1, 11, 12, 24, …
## $ num_pardos <dbl> 849, 253, 418, 541, 423, 366, 246, …
## $ num_indigenas <dbl> 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,…
## $ alfabetizados <dbl> 506, 782, 702, 627, 339, 224, 242, …
## $ n_alfabetizados <dbl> 348, 270, 200, 586, 226, 104, 62, 2…
## $ porc_brancos <dbl> 0.4365183, 0.4700000, 0.5061867, 0.…
## $ porc_pretos <dbl> 0.006544503, 0.012000000, 0.0213723…
## $ porc_amarelos <dbl> 0.0006544503, 0.0100000000, 0.00224…
## $ porc_pardos <dbl> 0.5556283, 0.5060000, 0.4701912, 0.…
## $ porc_indigenas <dbl> 0.0006544503, 0.0020000000, 0.00000…
## $ porc_alfabetizados <dbl> 0.5925059, 0.7433460, 0.7782705, 0.…
## $ porc_brancos_amarelos <dbl> 0.4371728, 0.4800000, 0.5084364, 0.…
## $ porc_indigenas_pardos_pretos <dbl> 0.5628272, 0.5200000, 0.4915636, 0.…
data = dados %>%
filter(!is.na(porc_alfabetizados),!is.na(porc_indigenas_pardos_pretos),!is.na(urbano)) %>%
select(porc_alfabetizados, porc_indigenas_pardos_pretos, urbano)
data %>%
ggplot(aes(x = porc_indigenas_pardos_pretos, y = porc_alfabetizados)) +
geom_point(alpha = .2, color = "darkorchid3") +
labs(x="Pardos, Negros e Índios", y="Alfabetizados")
data %>%
ggplot(aes(x = urbano, y = porc_alfabetizados)) +
geom_jitter(alpha = .2, color = "orangered2") +
labs(x="Urbano", y="Alfabetizados")
Com o gráfico de dispersão acima, percebeu-se que é mais próximo da função, subdividiu-se em dois modelos lineares (os aqueles acima e abaixo de 40%). Tendo em vista que 58,86% da Paraíba é composta de negros, pardos e índios, foi utilizada a parte acima de 40% da distribuição.
dados %>%
summarise(nao_brancos = sum(num_pretos, num_indigenas, num_pardos, na.rm = T) / sum(num_residentes, na.rm = T))
data = data %>%
filter(porc_indigenas_pardos_pretos > .4)
data %>%
ggplot(aes(x = porc_indigenas_pardos_pretos, y = porc_alfabetizados, color = urbano)) +
geom_point(alpha = .2) +
labs(x="Pardos, Negros e Índios", y="Alfabetizados") +
scale_color_manual(values = c("#8E3B46", "#477890"))
data_corr = data %>%
mutate(urbano = ifelse(urbano == "Urbano", 1, 0))
corrplot(cor(data_corr), diag = FALSE, tl.cex = 0.5, method = "circle", tl.col = "black", number.cex = .9, cl.lim = c(-100, 100), na.label = "o", addCoef.col = "black")
Através do gráfico de correlação, notou-se que, existe uma correlação linear moderada entre a alfabetização, tanto com a raça, quanto com o setor. Já pelo gráfico de distribuição, podemos perceber que a correlação não é monotônica e é negativa.
modelo <- lm(data = data,
porc_alfabetizados ~ porc_indigenas_pardos_pretos + urbano
)
tidy(modelo, conf.int = TRUE)
glance(modelo)
para_plotar_modelo = data %>%
data_grid(porc_indigenas_pardos_pretos = seq_range(porc_indigenas_pardos_pretos, 10),
urbano = c("Urbano", "Rural")) %>%
add_predictions(modelo)
glimpse(para_plotar_modelo)
## Observations: 20
## Variables: 3
## $ porc_indigenas_pardos_pretos <dbl> 0.4008439, 0.4008439, 0.4674168, 0.…
## $ urbano <chr> "Rural", "Urbano", "Rural", "Urbano…
## $ pred <dbl> 0.6712590, 0.8200548, 0.6378723, 0.…
ggplot(data = data, aes(x = porc_indigenas_pardos_pretos)) +
geom_point(aes(y = porc_alfabetizados, color = urbano), alpha = .2) +
geom_line(data = para_plotar_modelo, aes(y = pred, color=urbano), size = 1.5) +
labs(x="Pardos, Negros e Índios", y="Alfabetizados", color="Setor") +
scale_color_manual(values = c("#8E3B46", "#477890"))
ggplot(data = data, aes(x = porc_indigenas_pardos_pretos)) +
geom_line(data = para_plotar_modelo, aes(y = pred,color=urbano), size = 1.5) +
labs(x="Pardos, Negros e Índios", y="Alfabetizados", color="Setor") +
scale_color_manual(values = c("#8E3B46", "#477890"))
Regressão linear múltipla foi utilizada para analisar a associação da porcentagem de alfabetizados e da raça e setor. Os resultados da regressão indicam que um modelo no formato Alfabetizados = 0,87 - 0,50.(porc_indigenas_pardos_pretos) + 0,14.(urbano), explicam 41,42% da variância da variável de resposta (R2 = 0.41). Portanto, observamos que as principais caracteristicas de raça influenciam mais no alfabetizado do que se a pessoa mora em um setor urbano ou rural.